Lecture 21

这一节的主题是合作。

进行多轮的囚徒困境

前面的囚徒困境可以通过签订合约来进行,但是实际上生活中的很多的活动都是建立在多次的合作中达到的。

cooperate defeat
cooperate 2, 2 -1, 3
defeat 3, -1 0, 0

这个经典的囚徒困境博弈进行若干轮。

一方面,我们试图在最开始的时候建立自己的信誉,因此可能一开始就需要进行合作。

但是实际上,我们应该从后往前进行考虑,因为最后一次博弈,之前所有的付出都会是沉没成本,并且最后不用建立自己的声誉,一次双方一定会选择(D, D)。

假设现在博弈进行两轮,那么最后一轮大家都会选择(D, D),因此收益是(0, 0)。

现在我们类似于战争消耗(war attrition)中的例子一样,进行第一轮的博弈,将未来的收益加入到第一轮的收益矩阵中:

cooperate defeat
cooperate 2+0, 2+0 -1+0, 3+0
defeat 3+0, -1+0 0+0, 0+0

后面增加的就是未来的收益。

那么第一轮的游戏和第二轮的游戏是一样的,最后第一轮同样会选择(D, D)。

如果游戏进行500轮,依旧是全部都选择defeat。

这个多轮的囚徒困境博弈实际上就是前面Lecture 16有关垄断者和领域新进者之间的博弈相似。(最后就是垄断者和全部的新进者进行合作)

未来对过去的博弈没有激励或者惩罚,因此无法达成合作的局面。

这样的现象也可以称作是连任失败现象(lame duck)。

lesson:从后面开始崩溃和瓦解。如果要瓦解这样尴尬的局面,我们需要有一个光明的未来

Finite game - is there hope for cooperation?

A B C
A 4, 4 0, [5] 0, 0
B (5), 0 (1), [1] 0, 0
C 0, 0 0, 0 (3), [3]

这个游戏会进行两轮。

一开始我们希望一开始就能进行(A, A)。

实际上,在一轮博弈中,(B, B), (C, C)才是纳什均衡点,一开始并不会达到(A, A)。

进行两轮博弈时,如果不进行任何的干涉,那么依旧不会达到一开始就合作的局面。

我们现在进行游戏的指导政策,并且严格按照指导进行游戏:

  • 如果第一轮达到(A, A)的局面,那么双方第二轮都(C, C)。
  • 如果第一轮达到其他的局面,那么第二轮都选(B, B)。

我们将第二轮的收益带入到第一轮:

A B C
A 4+3, 4+3 0+1, 5+1 0+1, 0+1
B 5+1, 0+1 1+1, 1+1 0+1, 0+1
C 0+1, 0+1 0+1, 0+1 3+1, 3+1

这样我们就可以看到一开始能够达到(A, A)的局面,本质上我们将(C, C)作为一种奖励,而将(B, B)作为一种惩罚,使得有一个美好的未来,进行大家都选择合作的激励作用。

本质上有一个计算的公式:

今天不合作的诱惑+明天不合作的惩罚 与 明天的奖励之间的大小之间的比较:

[(5-4)(不合作的诱惑)+1(B作为一种惩罚)] < 3(C作为一种奖励)

lesson:

一个阶段的博弈有不止一个NE,我们可以通过预测将来NE的收益,来提供现在选择的动机。

囚徒困境再玩

假设这个游戏进行若干轮,投两枚硬币,一旦两枚是正面,那么结束游戏:最好的方式先进行若干轮合作,游戏快结束进行不合作。

类似于一种以牙还牙的策略。如果合作,那么就继续合作;一旦对方反叛不合作了,那么以后所有都选择不合作。

前面的例子中,一旦到达最后的博弈,那么反叛。

今天不合作的诱惑+明天不合作的惩罚 与 明天的奖励之间的大小之间的比较:

但是现实中我们不知道这个合作什么时候结束。因此对我们的显示生活中有很大的指导意义,因为我们的生活中的合作就是一个无限的游戏:一直合作,一旦对方叛变了,那么以后都选择不合作。

囚徒困境和合作的区别

囚徒困境仅仅进行一轮博弈,而合作是进行若干轮的博弈,并且是不知道结束时机的。

results matching ""

    No results matching ""